Más allá de la ingeniería de recompensas: datos para RL de contexto largo
Un estudio revela que una receta de datos minimalista con GRPO logra mejoras de +7 puntos en benchmarks de largo contexto y +4.8 en GAIA.
Un estudio revela que una receta de datos minimalista con GRPO logra mejoras de +7 puntos en benchmarks de largo contexto y +4.8 en GAIA.